本次对拍拍贷数据从2015-01-01到2017-01-30的所有信用标的10%sample样本。 由于数据集中变量众多,故此次分析数据集中的 lcis.csv 表中的10个变量。 这十三个变量分别是:借款金额、借款利率、借款期限、初始评级、借款类型、是否首标、年龄、性别、历史成功借款次数、历史成功借款金额、总代还本金、历史正常还款期数、历史逾期还款期数、标当前逾期天数。
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3000 4107 8516 7000 500000
## [1] 31165
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 25.00 28.00 29.35 32.00 65.00
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0.000 1.000 2.000 2.584 4.000 487.000 1203
## Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
## 0 1000 6500 15131 13692 3856476 1203
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0 0 2883 4500 5891 1697706
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0 0.0 0.0 18.4 0.0 524034.0
数据集中共有 292,539条客户投资成功的标。 LC(贷款特征)部分共有21个字段,包括一个主键(listingid)、7个标的特征和13个成交当时的借款人信息,全部为成交当时可以获得的信息。 IS(投资状况)部分有15个字段,包括截至recorddate当天标的还款状态,针对这位客户的已还和待还金额,最近的还款情况和下一期还款计划。
借款金额、年龄、性别、标当前逾期天数、标当前状态
借款期限、借款类型、是否首标、历史成功借款次数、历史正常还款期数、历史逾期还款期数
没有
「借款金额」呈明显的集中分布,1000元倍数的值的数量众多,75%分位值为7000元,超出7000元的借款人仅为少数,但大额借款的金额最高达到50万,虽然数量少,但是拉高了平均值。低于7000元的借款人数为217324,高于7000元的借款人总数为31165。所以将低于7000和高于7000分开进行分析。 「历史成功借款次数」
## lcis$性别: 男
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 25.00 28.00 29.53 33.00 56.00
## --------------------------------------------------------
## lcis$性别: 女
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 18.00 25.00 28.00 29.02 32.00 65.00
## lcis$性别: 男
## [1] 190366
## --------------------------------------------------------
## lcis$性别: 女
## [1] 102173
## lcis$性别: 男
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3000 4000 9386 7000 500000
## --------------------------------------------------------
## lcis$性别: 女
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3000 4275 6896 7000 500000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 7.00 16.00 18.00 17.78 20.00 24.00
##
## 7 8 8.01 8.09 8.1 8.18 8.39 8.4 8.5 8.51 8.53 8.61
## 10 10 5 10 5 5 5 5 166 5 5 5
## 8.7 9 9.01 9.02 9.03 9.1 9.11 9.22 9.25 9.28 9.3 9.31
## 5 698 31 5 20 10 5 5 101 5 20 10
## 9.32 9.35 9.38 9.39 9.4 9.45 9.5 9.51 9.53 9.58 9.6 9.61
## 5 10 10 5 5 5 527 25 5 5 15 5
## 9.68 9.7 9.71 9.75 9.79 9.88 9.89 9.9 10 10.01 10.02 10.1
## 5 10 5 5 5 10 5 5 2413 5 5 5
## 10.5 11 11.5 12 13 14 14.4 14.57 14.6 14.96 15 15.1
## 6278 6163 7885 22290 744 3335 40 10 15 5 1351 51
## 15.29 16 17 18 18.01 18.3 19 20 20.5 21 22 23
## 10 28410 113 97519 5 6 162 66372 7 357 45409 110
## 24
## 1641
初始评级高,逾期中占当前评级的比例越低,逾期天数也越少,成功借款次数越多。说明评级在借贷中是非常重要的属性,而避免投资无法按期收回的最好办法就是投资评级高的标。
初始评级和标当前状态为“逾期中”的关系非常强。
在探究这部分中,我发现逾期多发生在年轻人如年龄在30岁以下,借款金额低于5000的人群当中,其中男性比例略高于女性。 ### 这些特性之间是否存在有趣或惊人的联系呢? 逾期中的用户初始评级在 B 级的借款金额竟然多数出现在2500元以下,并且大部分逾期天数在200天以下,而 D 级借款金额就上升到5000附近,最高逾期天数接近600天。 ### 选项:你是否创建过数据集的任何模型?讨论你模型的优缺点。 没有创建过任何模型。
描述一 大多数借款人的年龄在20-35岁之间,平均年龄为29岁。
描述二 初始评级越低,逾期人数占当前评级总人数的比例就越高,也就是说评级越低,越容易逾期。
1、在分析的初期,对数据理解有一定的困难,不知道数据之间的关联性。所以第一时间去其官网熟悉其业务,了解其业务逻辑,这才对数据的每个字段有了一定的了解。并且认识到原来有些借款其实是C2C的,并不是B2C。这对后续分析非常重要。
2、在熟悉了业务逻辑后,我慢慢展开了对数据的初步探索阶段,这一阶段可以说是在漫游,因为完全不清楚该向那个方向进行分析,在看到「标当前状态」这个字段后,我才意识到,逾期应该是对这类金融公司需要着重关注的点,从而确定了我的分析方向。
3、在对感兴趣的单变量进行分析后,便对双变量开始探索,主要分析集中在了「逾期中」用户的具有什么样的用户画像上,以及投资什么样的借款群体能够尽可能的避免逾期风险。
4、遇到的挫折。 在分析过程中很多想法想要通过 R 实现感到很困难,因为对语法不熟悉,导致进度经常受阻。甚至是有些想法太难以实现,从而改变自己的想法。而且掌握的图形类型太少,导致探索性分析的方式不够多样,很可能有些有趣的结论没能被发现。
5、未来如何进一步丰富内容和提高报告质量? 未来希望通过对 R 语言的进一步掌握,能够使自己的各种想法都能够快速编写出来,这对我进一步的思考分析方法有很大的帮助。另外希望能掌握更多类型的图形,以便于更加直观、美观的展示自己的分析结果。
6、无法进行深入的相关性验证,所以得出的结论都存在一定的偶然性。